人工智能帮孩子写暑假作业？有可能还需改进！

人民数据研究院 2024-01-09

The following article is from 人民数据 Author 王简

时值中小学生暑假，督促学生完成暑假作业又成为家长们在假期中的重中之重。人工智能生成内容（简称：AIGC）平台在语言理解和知识回答方面已得到多方证明，但在回答语文、英语等语言类学科问题时，其回答准确和流畅程度仍有待发现。

人民数据研究院围绕ChatGPT、文心一言、讯飞星火和360智脑【1】4个通用AIGC平台，从AIGC辅导功课、学生群体提升语言学习能力和回答习题能力等维度进行综合评估。本次测评以人教版小学3年级和6年级期末习题作为蓝本，评估大语言模型处理选择题、填空题、阅读理解题以及作文题的回答质量和解释能力，对比发现已具备能力与改进可能。

测评发现：

· 回答质量随年级而变化，高年级英语内容回答质量更好，语文学科则更擅长回答低年级内容。

· 分析解读能力逐步体现，原文匹配、语法句法的解释能力已崭露头角，其余方面仍有一定完善空间。

· 中文回答方面国产大语言模型能力显著，写作水平令人惊艳，但拼音识别仍是难题。

· 互动仍以文字输入为主，图片、特殊符号等无法识别，对数学、物理等理科内容的分析理解仍有一段距离。

英语学科——词语筛选待提升，长文理解是亮点

观察大语言模型对不同英语习题回答中，我们从单词/词组、句子理解、阅读理解和撰写作文四个方面综合考察，发现整体表现上文心一言和ChatGPT不相上下，前者更擅长句子理解，后者作文能力更高；360智脑在阅读和字词方面表现良好，但生成作文时更为质朴，所使用的句式偏简单，主题内容单一且字数也较少；而讯飞星火则对3年级单词区分题无法进行有效回答，准确率不足6成。

图：AIGC平台对4类小学英语习题回答准确程度分布

各大平台对于短篇阅读理解（字数在300以内）已达到较为娴熟的程度（正确率均在80%以上），但对于将不同类别单词进行重新分类的题目仅将将及格。而在文章写作和阅读理解两类涉及长文处理时，各平台都能取得较好成绩，特别是ChatGPT在生成作文时所选用的句式丰富、篇幅较大且内容更符合小学生的暑假安排，而文心一言是国产大模型中生成内容更丰富、篇幅更多的平台。

语文学科——写作能力较优秀，拼音识别待攻克

表：AIGC平台在小学语文表现结果

小学阶段语文习题大概可以划分为词语/言语理解、原文填空、拼音识别、阅读理解和文章写作5类题目，分别从“词句文”不同层次检验AIGC生成能力和答案质量。相对而言，文心一言在各类题型上表现出色，无明显短板；ChatGPT在阅读理解方面表现较为优秀，可以准确把握出题意图并在原文中提炼答案；讯飞星火和360智脑则在回答言语理解时答题质量有待提升。

图：AIGC平台对5类小学语文习题回答准确程度分布

在给定主题和写作要求的情况下，各大平台都能够紧扣主题完成写作，用词较为准确、行文通顺流畅，展现了大语言模型对汉语丰富内涵的表达能力。ChatGPT生成作文逻辑严谨，能让读者感受语句中蕴含的艺术性；讯飞星火所作文章更善总结归纳，结构清晰；而360智脑无法理解小学6年级题目中“撰文400字以上”的字数要求，所作文章更加简单。

表：各AIGC平台对拼音识别题型回答情况（注：标红为回答正确）

值得关注的是，拼音识别题型结果有较大偏差，文心一言回答结果较为准确（90%以上）；ChatGPT和360智脑可正确识别拼音发音首字母，讯飞星火则给出结果较为离谱。分析发现各平台犯错方向有所不同，ChatGPT无法识别音调，且存在自造词的问题，360智脑在字母和音调识别有误，讯飞星火则存在无法按拼音识别单字的情况。

双职工父母功课辅导难，AIGC助力家庭教育

据36氪旗下“后浪研究所”所做的“00后作业小调查”显示，辅导孩子已经成为当代家长“心中的痛”。调查报告显示，当下超8成父母下班后都要辅导孩子学习，平均花费时间为67.7分钟；超9成家长都因为孩子的学习崩溃过，仅8%的家长没有这方面困扰。就此，人民数据研究院建议以下方面：

丰富平台使用方式，允许特殊字符、照片输入等形式

本次测评中，也发现目前同模型交互使用方面，各AIGC平台仅支持文本输入模式，对于物理数学等具有特殊字符的内容则无法输入，同时平台并无“读图”能力，无法通过拍照题目的方式进行回答。此外，对特定题目中提到的“有一个不属于任何一类”的限制条件，4平台除360智脑外，均无法将限制条件纳入回答的考虑之中。

强化AIGC解答能力，提升回答解释丰富度

AIGC的出现一定程度上让目前家庭功课辅导有了更多可能，对于使用文心一言等通用语言模型在各类学科中的回答能力，可以支持跨学科的家庭作业辅导活动。让家长能评判题目正误，如果模型能加入更多解释能力，还能提升讲解效率。

【1】版本号：ChatGPT-3.5 版本：May 24；文心一言版本：V2.2.0；讯飞星火版本：V1.5；360智脑版本：3.12.0

【2】根据大语言模型平台在回答时提供的额外信息，作为评判素材。

【3】回答质量是根据不同类型题目的平均分数得到的，针对具有答案的内容，判断回答正确率，针对作文和阅读理解的内容，从回答长度、切题程度和句式语法等角度主观评断。

推荐 · 阅读

齐齐哈尔体育馆坍塌事故致11人死亡，学生安全问题容不得一点马虎！
你情我愿，闲鱼不管？平台在逃避责任！

人民网·人民数据入选中国电子商会数据要素发展工作委员会副理事长单位

病人不许家属陪护只能请护工，医院陪护纷争如何化解？

“奶辣风”童装产业火热，“擦边球”还是穿衣自由？

作者：人民数据研究院研究员王简，人民数据研究院研究员马绮霞

编辑：张咏琴 | 责编: 王晓彤陈丽

继续滑动看下一个

人民数据研究院

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

人工智能帮孩子写暑假作业？有可能还需改进！

齐齐哈尔体育馆坍塌事故致11人死亡，学生安全问题容不得一点马虎！
你情我愿，闲鱼不管？平台在逃避责任！

人民网·人民数据入选中国电子商会数据要素发展工作委员会副理事长单位

“奶辣风”童装产业火热，“擦边球”还是穿衣自由？

您可能也对以下帖子感兴趣

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

生成图片，分享到微信朋友圈

人工智能帮孩子写暑假作业？有可能还需改进！

齐齐哈尔体育馆坍塌事故致11人死亡，学生安全问题容不得一点马虎！你情我愿，闲鱼不管？平台在逃避责任！

人民网·人民数据入选中国电子商会数据要素发展工作委员会副理事长单位

“奶辣风”童装产业火热，“擦边球”还是穿衣自由？

您可能也对以下帖子感兴趣

齐齐哈尔体育馆坍塌事故致11人死亡，学生安全问题容不得一点马虎！
你情我愿，闲鱼不管？平台在逃避责任！